智能论文笔记

High Resolution Point Clouds from mmWave Radar

Akarsh Prabhakara , Tao Jin , Arnav Das , Gantavya Bhatt , Lilly Kumari , Elahe Soltanaghaei , Jeff Bilmes , Swarun Kumar , Anthony Rowe

分类：机器人

2022-06-18

本文探讨了一种机器学习方法，用于从单芯片MMWave雷达产生高分辨率点云。与激光雷达和基于视觉的系统不同，MMWave雷达可以在恶劣的环境中运行，并通过烟雾，雾气和灰尘等遮挡。不幸的是，与激光点云相比，当前的MMWAVE处理技术可提供差的空间分辨率。本文介绍了Radarhd，这是一种端到端的神经网络，该网络从低分辨率雷达输入中构造了激光雷达点云。由于存在镜面和虚假的反射，增强雷达图像是具有挑战性的。由于信号的类似SINC的扩展模式，雷达数据也不能很好地映射到传统的图像处理技术。我们通过在大量的RAW I/Q雷达数据上训练Radarhd与各种室内环境中的LiDar Point云配对来克服这些挑战。我们的实验表明，即使在训练期间未观察到的场景和存在浓烟的情况下，也能够产生丰富的点云。此外，Radarhd的点云足够高，足以与现有的LiDAR ODOMETIRE和映射工作流程配合使用。

translated by 谷歌翻译

Dynamically Modular and Sparse General Continual Learning

Arnav Varma , Elahe Arani , Bahram Zonooz

分类：计算机视觉 | 人工智能 | 机器学习 | 神经与进化计算

2023-01-02

Real-world applications often require learning continuously from a stream of data under ever-changing conditions. When trying to learn from such non-stationary data, deep neural networks (DNNs) undergo catastrophic forgetting of previously learned information. Among the common approaches to avoid catastrophic forgetting, rehearsal-based methods have proven effective. However, they are still prone to forgetting due to task-interference as all parameters respond to all tasks. To counter this, we take inspiration from sparse coding in the brain and introduce dynamic modularity and sparsity (Dynamos) for rehearsal-based general continual learning. In this setup, the DNN learns to respond to stimuli by activating relevant subsets of neurons. We demonstrate the effectiveness of Dynamos on multiple datasets under challenging continual learning evaluation protocols. Finally, we show that our method learns representations that are modular and specialized, while maintaining reusability by activating subsets of neurons with overlaps corresponding to the similarity of stimuli.

translated by 谷歌翻译

Transformer-based Hand Gesture Recognition via High-Density EMG Signals: From Instantaneous Recognition to Fusion of Motor Unit Spike Trains

Mansooreh Montazerin , Elahe Rahimian , Farnoosh Naderkhani , S. Farokh Atashzar , Svetlana Yanushkevich , Arash Mohammadi

分类：机器学习

2022-11-29

Designing efficient and labor-saving prosthetic hands requires powerful hand gesture recognition algorithms that can achieve high accuracy with limited complexity and latency. In this context, the paper proposes a compact deep learning framework referred to as the CT-HGR, which employs a vision transformer network to conduct hand gesture recognition using highdensity sEMG (HD-sEMG) signals. The attention mechanism in the proposed model identifies similarities among different data segments with a greater capacity for parallel computations and addresses the memory limitation problems while dealing with inputs of large sequence lengths. CT-HGR can be trained from scratch without any need for transfer learning and can simultaneously extract both temporal and spatial features of HD-sEMG data. Additionally, the CT-HGR framework can perform instantaneous recognition using sEMG image spatially composed from HD-sEMG signals. A variant of the CT-HGR is also designed to incorporate microscopic neural drive information in the form of Motor Unit Spike Trains (MUSTs) extracted from HD-sEMG signals using Blind Source Separation (BSS). This variant is combined with its baseline version via a hybrid architecture to evaluate potentials of fusing macroscopic and microscopic neural drive information. The utilized HD-sEMG dataset involves 128 electrodes that collect the signals related to 65 isometric hand gestures of 20 subjects. The proposed CT-HGR framework is applied to 31.25, 62.5, 125, 250 ms window sizes of the above-mentioned dataset utilizing 32, 64, 128 electrode channels. The average accuracy over all the participants using 32 electrodes and a window size of 31.25 ms is 86.23%, which gradually increases till reaching 91.98% for 128 electrodes and a window size of 250 ms. The CT-HGR achieves accuracy of 89.13% for instantaneous recognition based on a single frame of HD-sEMG image.

translated by 谷歌翻译

A Comprehensive Study of Real-Time Object Detection Networks Across Multiple Domains: A Survey

Elahe Arani , Shruthi Gowda , Ratnajit Mukherjee , Omar Magdy , Senthilkumar Kathiresan , Bahram Zonooz

分类：计算机视觉 | 人工智能

2022-08-23

深神网络的对象探测器正在不断发展，并用于多种应用程序，每个应用程序都有自己的要求集。尽管关键安全应用需要高准确性和可靠性，但低延迟任务需要资源和节能网络。不断提出了实时探测器，在高影响现实世界中是必需的，但是它们过分强调了准确性和速度的提高，而其他功能（例如多功能性，鲁棒性，资源和能源效率）则被省略。现有网络的参考基准不存在，设计新网络的标准评估指南也不存在，从而导致比较模棱两可和不一致的比较。因此，我们对广泛的数据集进行了多个实时探测器（基于锚点，关键器和变压器）的全面研究，并报告了一系列广泛指标的结果。我们还研究了变量，例如图像大小，锚固尺寸，置信阈值和架构层对整体性能的影响。我们分析了检测网络的鲁棒性，以防止分配变化，自然腐败和对抗性攻击。此外，我们提供了校准分析来评估预测的可靠性。最后，为了强调现实世界的影响，我们对自动驾驶和医疗保健应用进行了两个独特的案例研究。为了进一步衡量关键实时应用程序中网络的能力，我们报告了在Edge设备上部署检测网络后的性能。我们广泛的实证研究可以作为工业界对现有网络做出明智选择的指南。我们还希望激发研究社区的设计和评估网络的新方向，该网络着重于更大而整体的概述，以实现深远的影响。

translated by 谷歌翻译

Curbing Task Interference using Representation Similarity-Guided Multi-Task Feature Sharing

Naresh Kumar Gurulingan , Elahe Arani , Bahram Zonooz

分类：计算机视觉 | 人工智能

2022-08-19

通过共享编码器和解码器而不是仅共享编码器，对密集预测任务的多任务学习提供了一种有吸引力的方面，以提高准确性和计算效率。当任务相似时，共享解码器将作为额外的归纳偏见，为任务提供更多的互补信息的空间。但是，增加的共享暴露于任务干扰的更多参数，这可能会阻碍概括和稳健性。在利用共享解码器的归纳偏见的同时，遏制这种干扰的有效方法仍然是一个公开挑战。为了应对这一挑战，我们建议进行渐进解码器融合（PDF），以根据任务间表示相似性逐步组合任务解码器。我们表明，此过程导致了一个多任务网络，具有更好地概括为分配和分布数据以及对对抗性攻击的鲁棒性。此外，我们观察到，该多任务网络的不同任务的预测彼此更加一致。

translated by 谷歌翻译

Differencing based Self-supervised pretraining for Scene Change Detection

Vijaya Raghavan T. Ramkumar , Elahe Arani , Bahram Zonooz

分类：计算机视觉

2022-08-11

场景变化检测（SCD）是一项关键的感知任务，通过比较在不同时间捕获的场景来确定变化。 SCD由于嘈杂的照明，季节性变化和两次观点的透视差异而具有挑战性。基于深度神经网络的解决方案需要大量的注释数据，这些数据乏味而昂贵。另一方面，从大型数据集中传输学习会导致域移动。为了应对这些挑战，我们提出了一种新颖的\ textit {差异自我监督预审（DSP）}方法，该方法使用特征差异来学习与变化区域相对应的歧视性表示，同时通过跨视图来实现时间不变性来解决嘈杂的变化。我们对SCD数据集的实验结果证明了我们方法的有效性，特别是在摄像机观点和照明条件下的差异。与使用超过一百万个标记的图像的自我监督的Barlow双胞胎和标准图像预处理相比，DSP可以超过它而无需使用任何其他数据。我们的结果还证明了DSP对自然腐败，分配转移和学习有限的数据的鲁棒性。

translated by 谷歌翻译

Adversarial Attacks on Monocular Pose Estimation

Hemang Chawla , Arnav Varma , Elahe Arani , Bahram Zonooz

分类：计算机视觉 | 人工智能

2022-07-14

深度学习的进步已导致计算机视觉的稳定进步，并提高了对象检测和语义细分等任务的准确性。然而，深度神经网络容易受到对抗攻击的影响，因此在可靠的部署中提出了挑战。 3D场景对机器人技术和高级驱动辅助系统的理解中的两个突出任务是单眼的深度和姿势估计，通常以无监督的方式一起学习。尽管存在评估对抗性攻击对单眼深度估计的影响的研究，但缺乏对对抗性扰动对姿势估计的系统性证明和分析。我们展示了加性不可感知的扰动不仅可以改变预测以增加轨迹漂移，还可以改变其几何形状。我们还研究了针对单眼深度和姿势估计网络的对抗性扰动之间的关系，以及将扰动转移到具有不同架构和损失的其他网络之间的关系。我们的实验表明，生成的扰动如何导致相对旋转和翻译预测的显着错误以及阐明网络的漏洞。

translated by 谷歌翻译

Task Agnostic Representation Consolidation: a Self-supervised based Continual Learning Approach

Prashant Bhat , Bahram Zonooz , Elahe Arani

分类：机器学习 | 人工智能 | 计算机视觉

2022-07-13

对非平稳数据流的持续学习（CL）仍然是深层神经网络（DNN）的长期挑战之一，因为它们容易出现灾难性的遗忘。 CL模型可以从自我监督的预训练中受益，因为它可以学习更具概括性的任务不可能的功能。但是，随着任务序列的长度的增加，自我监督的预训练的影响会减少。此外，域前训练数据分布和任务分布之间的域转移降低了学习表示的普遍性。为了解决这些局限性，我们建议任务不可知代表合并（TARC），这是CL的两阶段培训范式，它交织了任务 - 诺斯局和特定于任务的学习，从而自欺欺人的培训，然后为每个任务进行监督学习。为了进一步限制在自我监督阶段的偏差，我们在监督阶段采用了任务不可屈服的辅助损失。我们表明，我们的培训范式可以轻松地添加到基于内存或正则化的方法中，并在更具挑战性的CL设置中提供一致的性能增长。我们进一步表明，它导致更健壮和校准的模型。

translated by 谷歌翻译

Consistency is the key to further mitigating catastrophic forgetting in continual learning

Prashant Bhat , Bahram Zonooz , Elahe Arani

分类：机器学习 | 人工智能 | 计算机视觉

2022-07-11

深层神经网络由于灾难性忘记了以前学习的任务而难以不断学习多个顺序任务。基于排练的方法将以前的任务样本明确存储在缓冲区中，并将其与当前的任务样本交织在一起，这被证明是缓解遗忘的最有效的方法。但是，由于其性能与缓冲区的大小相称，因此在低缓冲机制和更长的任务序列下，经验重播（ER）表现不佳。软目标预测的一致性可以帮助ER保存与先前任务有关的信息，因为软目标捕获了数据的丰富相似性结构。因此，我们研究了在各种持续学习方案下，一致性正则化在ER框架中的作用。我们还建议将一致性正规化作为一个自制的借口任务，从而使使用各种自我监督的学习方法作为正规化者。同时增强了对自然腐败的模型校准和鲁棒性，但规范预测的一致性会导致在所有持续学习场景中遗忘。在不同的正规化家族中，我们发现更严格的一致性约束可以更好地保留先前的任务信息。

translated by 谷歌翻译

No Language Left Behind: Scaling Human-Centered Machine Translation

NLLB team , Marta R. Costa-jussà , James Cross , Onur Çelebi , Maha Elbayad , Kenneth Heafield , Kevin Heffernan , Elahe Kalbassi , Janice Lam , Daniel Licht

分类：自然语言处理 | 人工智能

2022-07-11

在全球范围内消除语言障碍的目标的驱动下，机器翻译已巩固自己是当今人工智能研究的关键重点。但是，这样的努力围绕着一小部分语言结合在一起，留下了绝大多数低资源的语言。在确保安全，高质量的结果的同时，在牢记道德考虑的同时，打破200个语言障碍需要什么？没有留下的语言，我们首先通过与母语人士的探索性访谈来解决对低资源语言翻译支持的必要性来应对这一挑战。然后，我们创建了旨在缩小低资源和高资源语言之间的性能差距的数据集和模型。更具体地说，我们开发了一种有条件的计算模型，基于专家的稀疏混合物，该模型经过针对针对低资源语言量身定制的新颖有效的数据挖掘技术培训的。我们提出了多次建筑和培训改进，以抵消数千个任务的培训。至关重要的是，我们使用人类翻译的基准，Flores-200评估了40,000多种不同的翻译方向的性能，并将人类评估与新型毒性基准相结合，涵盖Flores-200的所有语言，以评估翻译安全性。我们的模型相对于先前的最新技术，实现了44％BLEU的改善，为实现通用翻译系统奠定了重要的基础。最后，我们开源此工作中描述的所有贡献，可在https://github.com/facebookresearch/fairseq/tree/nllb上访问。

translated by 谷歌翻译